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摘要 : 本 文 提 出 一 种 基于 判别 式 模型 的 藏 文 分 
藏 文 构 词 特性 ， 通 过 最 小 构 词 粒度 切 分 、 感 知 机 解码 和 分 词 结果 重 排序 三 个 模块 ， 显 著 提升 了 藏 文 分 词 质 


翻译 质量 明显 提高 。 


关键 词 ， 藏 文 分 词 机 器 翻译 词 图 
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词 方法 ， 并 研究 了 藏 文 分 词 在 藏 汉 机 器 翻译 中 的 应 用 。 根 据 


量 。 在 此 基础 上 ， 我 们 还 提出 了 基于 词 图 的 藏 汉 机 器 翻译 方法 ， 绥 解 了 分 词 错误 在 翻译 中 的 传播 ， 可 以 使 


藏 文 是 一 种 具有 逻辑 格 语法 体系 的 拼音 文字 , 表达 方式 和 构 词 方式 较为 灵活 ， 又 因为 受 


信息 处 理 面 临 和 汉语 同样 的 


分 词 技术 切 分 的 准确 


到 周边 国家 或 地 区 语言 文化 的 影响 , 具有 多 种 语言 的 特性 。 藏 文 分 词 技术 是 藏 文 信息 处 理 的 


问题 , 即 如 何 将 字符 序列 切 分 成 合 到 
率 和 实用 性 还 有 待 提高。 这 一 方面 是 因为 藏 文 编码 方案 较 多 并 且 藏 文 研 


基础 。 在 藏 文中 ， 和 汉语 类 似 ， 词 与 词 之 间 都 是 字符 或 字 的 序列 ,缺乏 间隔 标记 。 因 此 藏 文 


的 词语 序列 。 而 现 有 的 藏 文 


究 起 步 较 晚 ， 另 一 方 


面 更 是 由 于 藏 文本 身 较为 复杂 的 构 词 规律 所 致 。 


藏 文 信息 处 理 领 域 中 的 信息 检索 、 词 法 分 析 、 句 法 分 析 、 语 义 消 必 、 机 器 翻译 、 数 据 挖 


掘 、 性 情 监控 等 以 用 研究 的 


为 进一步 进行 藏 文 语 


第 一 步 就 是 分 词 。 许 多 学 者 在 藏 文 分 词 领 域 做 出 


言 处 理 相关 技术 的 发 展 提供 了 必要 的 基础 和 开创 性 的 


分 词 技术 采用 的 是 基于 规 贝 


文 的 初步 分 词 。 但 是 


了 很 多 研究 成 果 ， 
思路 。 传 统 的 藏 文 


| 的 方法 , 在 考虑 藏 文 特殊 构 词 规律 的 基础 上 , 用 词典 匹配 实现 藏 


， 基 于 规则 的 分 词 方法 的 分 词 效果 较 差 。 近 年 来 ， 汉语 分 词 技术 快速 发 


展 , 基于 统计 的 分 词 模型 在 汉语 分 词 上 获得 较 大 成 功 。 然而 ,单独 使 用 统计 模型 并 不 能 很 好 
性 , 因此 , 将 基于 规则 的 方法 和 统计 的 方法 融合 是 藏 文 分 词 技术 的 发 展 


地 刻画 藏 文 的 构 词 特 


方向 。 


机 器 翻译 是 指 用 计算 机 将 一 种 语言 翻译 为 另 一 种 语言 。 机 器 翻译 技术 致力 于 解决 不 同 语 


言 之 间 的 交流 障 但。 藏族 文化 源远流长 ， 藏 文 承载 了 丰富 的 文化 遗产 ,在 民族 交流 日 益 频繁 


结 


的 今天 , 机 器 翻译 技术 将 有 效 地 把 藏族 的 文化 和 智 意 转 为 有 


播 和 发 展 。 现 有 的 藏 汉 机 器 翻译 系统 采 月 
于 合 的 方法 。 基 于 规则 的 方法 的 劣势 在 于 ， 


汉语 表达 ， 以 促进 藏族 文化 的 传 


基于 规则 的 方法 , 即 词典 和 人 工 制 定 的 翻译 规则 相 


到 翻译 知识 ,实现 双语 之 问 的 翻译 。 构 建 双语 平行 语料库 的 人 工 成 本 远 小 了 


则 的 成 本 ， 并 且 平 行 


语料库 的 规模 越 大 ， 


判定 规则 的 人 工 成 本 过 高 ， 可 移植 性 差 。 对 于 通 
用 的 机 器 翻译 技术 而 言 , 基于 统计 的 方法 已 经 成 为 当今 的 主流 。 基 于 统计 的 机 器 翻译 的 优势 
在 于 ， 仅 需要 构建 双语 平行 语料库 ， 不 需要 很 多 人 了 


[的 介入 ， 统 计 模 型 就 可 以 从 中 自动 学 习 


上 训练 出 来 的 翻译 模型 的 翻译 性 


六 人 工 制定 翻译 规 


能 越 高 。 


随 着 信息 科技 的 迅速 发 展 , 藏 语 信息 处 理 技术 也 取得 了 极 大 的 进展 ,但 是 由 于 起 步 较 晚 ， 
还 处 于 较为 初级 的 阶段 。 将 面向 藏 文 处 理 的 规则 方法 和 统计 方法 进行 有 机 的 结合 , 会 推进 藏 


文 信息 技术 的 进一步 


实用 化 。 


2 藏 文 构 词 特点 及 藏 文 分 词 研究 现状 
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藏 文 分 词 及 其 在 藏 汉 机 器 翻译 中 的 应 用 


2.1 藏 文 构 词 简介 


藏 语 和 汉语 同属 于 汉 藏 语系 ， 具 有 一 些 相同 的 特点 : (1). 汉语 和 藏 语 都 是 单 音节 构 字 ， 
即 一 个 字 中 只 有 一 个 元 音 ; (2). 都 具有 量词 ; (3). 以 虚词 或 语序 作为 表达 语法 意义 的 重要 途 
径 ;(4). 词 与 词 之 间 没 有 空格 。 汉 语 与 藏 语 的 最 大 不 同 在 于 其 文字 的 表现 形式 , 汉语 是 字符 
文字 ,而 藏 语 是 拼音 文字 。 因 而 藏 文句 子 的 书写 表现 形式 类 似 于 汉语 的 拼音 形式 的 拼接 , 值 
得 注意 的 是 ， 音 节 之 间 没 有 空格 分 割 。 


藏 文 的 拼音 字母 是 由 4 个 元 音 和 30 个 辅音 组 成 ， 称 之 为 构件 。 藏 文 各 音节 之 间 用 一 个 
“点 ”分 隔 ， 称 之 为 音节 点 。 一 个 音节 最 多 由 7 个 构件 组 成 ， 但 其 组 合 方式 包括 水 平和 垂直 
组 合 。 选 择 一 个 辅音 作为 基础 构件 ,在 其 上 下 左右 根据 一 定 规律 放置 其 它 构件 ， 比 如 ， 元 音 
往往 会 置 于 上 方 或 下 方 。 


一 般 而 言 ， 藏 文 的 音节 是 书写 的 最 小 单元 ， 可 和 
以 理解 为 汉语 中 的 一 个 字 ， 为 了 便于 表达 ， 本 文 也 人 NN 
将 藏 文 的 音节 称 为 字 。 如 图 1 所 示 ; 图 1。 藏 文 词 “教室 

前 面 的 一 个 音节 表示 “学 习 ” 的 意思 ， 后 面 的 一 个 音节 表示 “房间 ， 屋 子 ” 的 意思 。 在 


藏 文中 大 量 地 使 用 格 助词 和 紧缩 词 。 有 些 格 助词 如 图 2 所 示 ， 在 特定 语 境 下 可 以 省 略 前 面 
音节 的 音节 点 ， 直 接 拼 接 在 前 一 个 音节 之 后 。 由 于 这 种 紧缩 现象 的 频繁 出 现 ， 不 能 简单 地 将 
音节 作为 藏 文 分 词 的 基本 粒度 ， 因 此 ， 藏 文 的 基本 粒度 切 分 是 藏 文 分 词 的 第 一 步 。 


藏 文 被 转换 为 分 词 的 基本 粒度 之 后 , 可 以 借鉴 汉语 下 


~ 
自动 分 词 方法 。 这 里 的 分 词 基本 粒度 在 语言 学 上 并 不 于 公 从 
有 任何 意义 。 基 本 粒度 往往 比 一 个 音节 要 小 ， 我 们 图 2. 藏 文 格 助词 


可 以 称 基本 粒度 为 分 词 所 用 的 “ 字 ”， 转 换 为 字 序列 之 后 ， 我 们 再 进行 相关 的 分 词 研究 。 而 
字 序 列 的 分 词 ， 就 可 以 借鉴 汉语 中 已 经 成 熟 的 方法 。 


2.2 藏 文 分 词 相关 工作 


现 有 的 藏 文 分 词 方法 大 体 可 以 分 为 两 类 。 第 一 类 是 基于 藏 文 特有 的 语言 学 知识 的 规则 方 
法 。 陈 玉 上 忠 中 从 藏 文 的 字 切 分 特征 、 词 切 分 特征 和 句 切 分 特征 三 个 方面 深入 研究 藏 文 特有 
的 语法 接续 规则 ， 提 出 了 基于 格 助 词 和 接续 特征 的 藏 文 分 词 方法 。 才 智 杰 中 的 首 先 识别 格 助 
词 ,然后 将 其 作为 分 隔 符 对 句子 进行 切 分 , 采用 最 大 匹配 的 算法 依次 对 切 分 之 后 的 “ 块 ” 进 
行 分 词 。 基于 规则 的 藏 文 分 词 算 法 通常 需要 一 个 规模 足够 大 的 词典 , 采用 最 大 匹配 算法 ， 即 
以 在 词典 中 查 到 的 最 长 的 词 条 作为 句子 的 切 分, 算法 实现 简单 ,效率 较 高 。 这 种 方法 不 能 很 
好 地 处 理 切 分 歧义 问题 , 另外 对 于 未 登录 词 的 识别 能 力 不 强 。 第 二 类 是 基于 统计 的 机 器 学 习 
方法 ， 用 到 的 统计 模型 主要 是 隐 马 尔 科 夫 模型 踢 昌 。 然 而 相对 于 复杂 的 藏 文 构 词 现 象 ， 隐 马 
尔 科 夫 模型 仍然 略 显 简 单 。 当 前 ， 其 他 统计 模型 ， 如 最 大 炉 趾 、 感 知 机 和 条 件 随 机 场 等 判别 
式 模 型 的 应 用 已 经 成 为 汉语 分 词 方法 的 主流 方向 。 判 别 式 模型 的 优势 在 于 同时 支持 简单 的 特 
征 和 复杂 的 特征 ,特征 空间 具有 回 退 特性 ， 因 此 具有 较 好 的 模型 泛 化 能 力 。 可 以 预见 这 些 模 
型 也 应 能 够 用 于 藏 语 。 


3 ”基于 判别 式 模型 的 藏 文 分 词 方法 


3.1 藏 文 分 词 系统 
针对 藏 文 分词 过 程 各 个 层面 的 处 理 对 象 以 及 问题 特点 ， 我 们 的 藏 文 分 词 系统 包含 了 原 
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子 切 分 、 基 于 感知 机 解码 和 分 词 结果 重 排序 三 个 主要 模块 ， 系 统 的 流程 如 图 3 所 示 。 


切 分 最 
小 粒度 


1 己 ， 
1 最 终 分 词 结果 ! 
1 

1 


图 3. 着 文 分 词 系 统 流程 图 

首先 ， 根 据 藏 文 特有 的 构 词 规律 将 句子 切 分 成 最 小 粒度 的 序列 一 单元 序列 ， 随 后 ， 
根据 感知 机 模型 提供 的 判别 式 分 类 的 权重 ,在 单元 序列 上 进行 维特 比 解码 ， 从 而 生成 有 向 
图 ， 并 通过 查询 词典 为 各 条 边 赋予 不 同 的 权重 ; 最 后 ， 通 过 最 短路 径 算 法 求解 加 权 有 向 图 
中 的 最 短路 径 ， 生 成 最 终 分 词 结 果 。 


下 面 对 这 几 个 步骤 分 别 进 行 介绍 。 


3.2 藏 文 最 小 构 词 粒度 切 分 
一 个 或 多 个 藏 文字 丁 组 成 一 个 音节 ， 一 个 或 者 多 个 音节 组 成 词 ， 音 节 之 间 由 音节 点 分 
隔 。 如 图 4 所 示 的 藏 文 片段 ， 其 汉语 含义 是 ， 处 在 某 一 个 级 别 。 
基于 序列 标注 模型 的 汉语 分 词 过 程 可 以 视 为 在 字 于 
层面 上 的 组 合 。 而 藏 文 分 词 过 程 的 复杂 性 在 于 ， 不 能 言 节点 
直接 在 音节 层面 上 进行 组 合 , 在 有 些 情况 下 需要 将 基 AI 
个 音节 拆 分 ， 和 左边 或 者 右边 音节 组 合 ， 或 者 独立 成 | 
词 。 由 于 这 种 组 合 的 灵活 性 ， 对 于 藏 文 的 标注 序列 的 
最 小 构 词 粒度 必须 是 小 于 音节 的 单位 。 我 们 设计 了 三 图 4。 藏 文 片段 
种 构 词 粒度 的 方案 以 描述 其 构 词 规律 ， 如 图 5 所 示 : 
方案 1: 以 藏 文字 丁 为 构 词 粒度 对 句子 按照 每 个 字 丁 进行 切 分 , 如 图 5 中 的 切 分 (a)。 
方案 2: 以 藏 文字 丁 一 音节 点 为 构 词 粒度 不 将 音节 点 单独 切 分 出 来 ， 而 是 将 其 与 左 
边 字 丁 组 合 ， 如 图 5 中 的 切 分 〈b)。 
方案 3: 以 音节 为 构 词 粒度 定义 特殊 格 助词 表 ， 先 按照 音节 扫描 切 分 句子 ， 一 旦 音节 
中 含有 特殊 格 助词 则 匹配 相对 应 的 规则 切 分 此 音节 ， 如 图 5 中 《ce) 所 示 。 


选择 藏 文 的 最 小 构 词 粒度 的 关键 在 于 将 WIRE 
藏 文句 子 切 分 为 基本 粒度 序列 。 基 本 粒度 指 
的 是 无 需 进 一 步 切 分 的 “ 字 ”， 而 分 词 过 程 
可 以 看 做 是 连续 的 基本 粒度 的 组 合 ,， 进而 成 (EE 
词 。(a) 方案 没有 考虑 任何 构 词 规律 ， 在 分 ee 
词 标注 语 料 有 限 而 字 丁 构 词 现象 又 较为 复 和 
杂 的 情况 下 ， 统 计 模型 缺乏 足够 的 知识 进行 标注 学 习 ，(b) 方案 在 a) 方案 的 基础 上 考 
虑 音节 规律 ， 减 小 了 分 词 时 的 解码 搜索 空间 ， 而 方案 (c) 则 最 大 程度 保存 了 音节 的 内 部 
结构 ， 却 又 不 会 破坏 构 词 粒度 的 原子 性 。 然 而 较 大 的 粒度 在 规模 受 限 的 标注 语 料 中 会 出 现 
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藏 文 分 词 及 其 在 藏 汉 机 器 翻译 中 的 应 用 


数据 稀 朴 的 问题 。 实 验 部 分 探讨 了 在 同样 规模 标注 语料库 下 ， 采 用 以 上 不 同 的 切 分 策略 对 
最 终 分 词 效果 的 影响 。 


3.3 基于 感知 机 模型 的 藏 文 分 词 方法 


感知 机 是 线性 判别 式 模型 ， 形 式 简 单 ， 根 据 特定 任务 设计 出 合适 的 特征 , 会 收 到 非常 显 
著 的 分 类 效果 。 传统 的 感知 机 用 以 解决 两 分 类 问题 , 如 果 模 型 计算 一 个 实例 的 特征 向 量 得 分 
大 于 某 个 闵 值 ， 此 实例 属于 +1 类 ， 否 则 属于 -1 类 。 但 是 ， 自 然 语言 处 理 任务 中 更 常 遇 到 的 
是 多 分 类 (不止 两 类 ) 问题 。 对 于 分 词 任务 而 言 ， 需 要 判断 每 个 字 的 所 属 分 类 ， 根 据 字 分 类 
情况 ， 产 生 分 词 结果 。 通 常 定 义 4 种 类 别 ， 分 别 是 : 


: 词 的 开始 
: 词 的 内 部 
: 词 的 结尾 
字 单 独 成 词 


为 解决 上 述 问 题 ， 我 们 可 以 将 其 进行 转化 。 对 于 每 个 字 ， 通 过 模型 分 别 计 算 其 在 属于 
4 种 类 别 时 的 模型 得 分 ， 选 择 最 高 分 的 类 别 作为 这 个 字 的 最 终归 属 类 别 。 但 是 分 词 过 程 并 
不 是 单独 的 对 字 进 行 分 类 ， 还 要 考虑 到 相 邻 字 分 类 类 别 的 兼容 性 。 由 上 面 对 类 别 的 定义 ， 
我 们 可 以 推导 出 下 面 的 规则 。 


| 
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1. 如 果 当 前 字 的 类 别 是 b， 其 后 面 字 的 类 别 不 能 是 b; 

2. 如 果 当 前 字 的 类 别 是 后 面 字 的 类 别 只 能 是 m 或 者 e; 
3. 如 果 当 前 字 的 类 别 是 e， 其 后 面 字 的 类 别 上 只 能 

4. 如 果 当 前 字 的 类 别 是 s， 其 后 面 字 的 类 别 只 能 是 b 或 者 s。 


后 
| 


| 于 


由 


m, 
e 


和 


NM 


我 们 可 以 通过 维特 比 算法 对 基本 字 序 列 进行 序列 标注 , 而 序列 标注 的 权重 由 感知 机 模 
型 训练 得 到 ， 其 中 感知 机 模型 是 判别 式 分 类 模型 的 一 种 。 柯 林 〈Collin) 名 提出 的 基于 感 
知 机 的 序列 标注 方法 是 一 种 在 线 的 学 习 方 法 ， 将 传统 的 感知 机 训练 算法 应 用 于 分 词 任务 ， 
训练 时 对 于 正确 标注 增加 其 权重 ， 对 于 错误 标注 减少 其 权重 。 感 知 机 模型 的 训练 速度 快 ， 
分 类 效果 好 。 我 们 采用 平均 感知 机 算法 进行 句子 的 粗 切 分 ， 该 算法 记录 每 一 次 权重 的 改变 ， 
以 提高 分 词 系 统 的 稳定 性 ， 算 法 如 下 所 示 : 


平均 感知 机 算法 
01: input 训练 实例 (X,Y 了) 天, 了 构成 平行 语料库 ( 共 NN 对 ) 
Wo 0; jo 0; We0 
for t=1 till T do T 轮 迭 代 
for i=1 till N do 
2 选取 得 分 最 高 标注 序列 ， 其 中 z 
4 CEN(%) 为 由 GEN (x) 产生 的 标注 结果 。 
WI Wi+®(xiyi) -D(xi71) 
joj+1 


end for 
end for 


output Wo ywW’ 
天 = 


设 输入 句子 的 原子 序列 xsX， 输 出 标注 序列 yie 了, 表示 训练 语 料 中 的 所 有 句子，Y 
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表示 对 应 的 标注 ， 共 有 N 个 句子 ， 其 中 {b, m, e, s} 是 标注 的 符号 集合 。 
我 们 用 函数 GEN(x) 表 示 采 用 维特 比 算法 产生 输入 句子 x; 的 候选 标注 结果 , 中 (xi)Z) 表 
示 输 入 句子 和 产生 标注 序列 的 特征 向 量 ， 选 择 使 得 (x;,z)-W ;7 得 分 最 高 的 z 作为 标注 序 
列 。yi 表 示 正 确 的 标注 序列 ， 我们 用 正确 标注 序列 的 特征 向 量 和 产生 的 最 好 标注 序列 的 特征 
向 量 之 差 更 新 权重 W， 即 仅 更 新 被 标记 错误 的 字 所 对 应 的 特征 ， 增 加 这 个 字 标 准 的 类 别 的 
特征 对 应 的 权重 ， 而 减 小 字 被 错误 标注 的 类 别 的 特征 对 应 的 权重 。 
下 面 是 一 个 例子 。 


如 图 6 所 示 ， 这 人 句 藏 文 的 意思 是 “ 苗 从 
地 里 发 芽 >。 假 设 我 们 只 用 特征 模板 
CnCnii(n=-1..0) 


首先 由 算法 1 中 的 第 5 条 语句 生成 图 6 
中 的 最 后 一 个 序列 标注 ， 这 是 一 个 错误 的 标 人 让 人 
注 ， 第 四 个 藏 文字 应 该 属于 e 类 ， 却 被 预测 | 错误 标注 系列 
为 s。 对 于 标准 序列 在 第 四 个 藏 文字 上 生成 的 
地 征 是 featl 和 feat2 。 图 6。 藏 文 分 词 举例 


featl: C-1C0=®Y  &&e 


= | 标准 标注 系列 


feat2: cocl- 避 羽 sse 


对 于 模型 生成 的 错误 的 序列 标注 在 第 四 个 藏 文字 上 生成 的 特征 feat3 和 feat4 是 : 


feat3: C-1C0= 导 可 &&s 
feat4: Coc1- 可 习 &ss 


其 中 C-1C0 对 应 前 述 特征 模板 表示 CnCntz(n=-1..0) 的 n, 表示 位 置信 息 。&&& 表 示 分 隔 符 ， 
前 面 的 藏 文 是 文本 特征 , 而 后 面 的 e 是 标注 特征 。 算 法 描述 中 第 六 行 指令 的 操作 就 是 ,将 featl 
和 feat2 对 应 的 权重 进行 奖赏 ， 而 对 feat3 和 feat4 对 应 的 权重 进行 惩罚 。 
3.4 分 词 特征 设计 

特征 设计 是 在 判别 式 训 练 中 最 为 重要 的 任务 , 结果 直接 影响 分 词 的 质量 。 在 设计 特征 时 ， 
需要 研究 者 根据 不 同 的 任务 需求 ， 考 察 任 务 的 特点 ， 才 能 设计 出 合理 的 特征 模板 。 


在 分 词 任务 中 ， 对 于 当前 字 的 分 类 ， 我 们 需要 考虑 到 这 个 字 前 后 相 邻 的 字 对 其 影响 ， 所 
以 要 抽取 当前 字 相 邻 的 字 作为 特征 。 藏 文 词 通常 由 较 多 的 字 组 成 , 我 们 将 特征 模板 的 窗口 设 
为 4， 以 抽取 较 多 的 特征 刻画 当前 字 。 


特征 模板 ， 如 表 1 所 示 。 表 1. 特征 模板 


其 中 ，Co 表示 当前 字 ， 当 前 字 左 
边 的 为 Gg 如 左边 第 一 | 字 为 G3 
同 理 当 前 字 右 边 的 字 用 Cn 表示 。 


3.5 基于 词 图 的 重 排序 
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对 于 基于 感知 机 的 分 词 ， 除了 通常 使 用 的 局 部 特征 ， 非 局 部 特征 的 引入 也 会 提升 分 词 
的 性 能 。 但 是 , 非 局 部 特征 要 在 解码 的 过 程 中 动态 地 生成 , 很 难 直 接 将 其 加 入 到 分 类 器 中 ， 
并 且 引 入 非 局 部 特征 也 会 影响 训练 过 程 中 对 应 特征 的 调节 。 在 自然 语言 处 理 的 其 他 领域 也 
面临 着 类 似 的 问题 ， 一 般 的 解决 方案 是 使 用 重 排序 的 方法 引入 非 局 部 特征 。 然 而 ， 传 统 的 
重 排序 是 通过 产生 n-best 结果 。n-best 所 能 表示 的 搜索 空间 较 小 ， 并 且 储 存 了 宛 余 数据 。 
据 此 ， 我 们 在 采用 感知 机 模型 进行 藏 文 粗 切 分 的 过 程 中 保存 分 词 的 候选 ， 并 将 候选 分 词 结 
果 压 缩 为 词 图 ， 最 后 采用 基于 词 图 的 重 排序 算法 寻找 最 合适 的 分 词 结果 。 


基于 判别 式 模型 的 分 词 方法 优势 在 于 较 高 的 泛 化 能 力 ， 用 丰富 全 面 的 特征 空间 刻画 分 
词 结果 ， 不 论 是 未 出 现 词 还 是 已 出 现 词 ， 均 可 通过 模型 计算 给 出 概率 得 分 。 但 是 ， 判 别 式 
模型 的 泛 化 能 力 可 能 导致 常用 词 不 能 正确 的 切 分 ,产生 低级 错误 。 因 此 ， 判 别 式 模型 和 词 
典 的 有 机 结合 会 在 一 定 程度 上 提高 分 词 质量 。 


可 以 将 词 图 看 作 一 个 有 向 无 环 图 , 如 ee 

图 7 所 示 。 以 构 词 单元 之 间 的 空 除 作 为 图 @-SN>O-G@-N>Q 王 OO -> 
和 站 We ed 六 放 a 

的 顶点 ,顶点 之 间 的 连 线 表 示 顶 点 之 间 的 
字符 组 合成 词 。 每 条 边 通过 词典 获得 相应 图 7. 词 图 
的 权重 ， 在 词 图 上 寻找 一 条 最 短路 径 ， 例 如 : <1, 4>、<4, 7>。 

按照 词 图 顶点 的 拓扑 顺序 , 对 每 个 结 点 保存 以 此 结 点 为 终点 的 所 有 边 , 可 以 生成 词 图 。 
例如 ， 对 于 顶点 3， 保 存 边 <2,3> 和 <1, 3>; 对 于 顶点 4， 保 存 边 <1, 4>、<2, 4> 和 <3, 4>。 

如 果 保 存 解码 过 程 中 的 所 有 边 ， 则 词 图 中 会 包含 过 多 的 无 用 路 径 ， 在 一 定 程度 上 会 影 
响 最 短路 径 的 生成 。 所 以 我 们 通过 限制 每 个 结 点 的 入 度 ， 只 保存 得 分 最 高 的 n 条 边 ， 实 现 
词 图 的 简单 剪 校 。 由 于 词 图 结构 的 特点 ， 即 使 限制 结 点 入 度 ， 同 样 会 包含 很 多 路 径 信息 。 

传统 的 最 短路 径 分 词 原则 是 使 切 分 出 来 的 词 数 最 少 。 在 此 基础 上 , 加 入 词典 惩罚 特征 ， 
对 每 一 条 边 通 过 查询 词典 赋予 一 个 权重 ， 通 过 动态 规划 算法 求 出 最 短路 径 。 其 中 词典 包含 
95971 个 常用 词 条 。 例 如 ， 对 于 藏 文句 子 : 


DEERE 苗 从 地 里 发 芽 ) 


一 


可 能 有 如 下 三 种 切 分 : 
EE: 
2. Wi/ 
3. Y/Y/ 


CN) CW HN) 


[| 


如 果 每 条 边 的 权重 都 为 1， 则 三 种 切 分 的 分 值 都 为 5。 如 果 对 于 没有 在 词典 中 出 现 的 
词 加 以 适当 的 惩罚 ， 比 如 ， 将 其 边 的 权重 调整 为 2。 切 分 方案 1 中 ， 所 有 的 词 都 在 词典 中 
存在 ， 得 分 为 5; 在 切 分 方案 2 中 , “3 和 9 不 会 在 词典 中 出 现 ， 得 分 为 1+2+2+1+1=7; 切 
分 方案 3， 号 和 强 不 存在 于 词典 中 ， 得 分 为 1+1+2+2+1=7。 因 而 切 分 1 具有 最 短路 径 。 


4 ”基于 词 图 的 藏 汉 机 器 翻译 


藏 汉 机 器 翻译 研究 处 于 起 步 阶 段 ， 国 内 外 还 没有 较为 成 熟 的 研究 成 果 。 主 要 原因 在 于 : 
1. 藏 文 相关 的 信息 处 理 基 础 性 技术 还 没有 达到 实用 阶段 ，2. 藏 汉 双 语 平 行 语 料 医 乏 ;3. 藏 
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语 语言 学 规律 较为 复杂 ,制定 人 工 翻译 规则 的 成 本 过 大 。 目 前 , 统计 机 器 翻译 是 机 器 翻译 的 
主流 方向 。 统 计 机 器 翻译 在 近年 来 快速 发 展 ,翻译 模型 在 众多 研究 者 的 努力 下 快速 迭代 发 展 ， 
从 最 初 的 基于 词 的 翻译 模型 , 发 展 到 基于 短语 的 翻译 模型 , 翻译 质量 得 到 极 大 的 提升 。 但 是 ， 
短语 模型 的 翻译 调 序 能 力 有 限 ， 难 以 实现 翻译 的 长 距离 调 序 。 蒋 伟 (David Chiang) 在 短 
语 模型 的 基础 上 创造 性 地 提出 了 层次 短语 模型 , 从 双语 语 料 中 自动 抽取 带 有 泛 化 变量 的 翻译 
模板 , 改进 了 翻译 模型 的 翻译 调 序 能 力 。 层 次 短语 模型 可 以 比较 好 地 完成 两 种 语序 差异 较 大 
语言 之 间 的 翻译 , 较 好 地 解决 了 翻译 过 程 中 的 长 距离 调 序 问 题 。 汉 语 在 语法 上 属于 主动 宾 ( 主 
语 、 动 词 、 宾 语 ，SVO) 结 构 ， 而 藏 文 是 主 宾 动 (SOV) 结构 ， 在 藏 汉 翻 译 中 ， 层 次 短语 模 
型 具有 较 大 的 优势 。 


统计 机 器 翻译 在 解码 时 通常 需要 两 个 步 又 。 第 一 步 是 分 词 、 词 形 还 原 或 者 形态 分 析 。 根 
据 语 言 的 不 同 ， 选 择 不 同 的 操作 。 汉 语 ， 藏 文 和 泰语 等 词 与 词 之 间 没 有 明显 的 分 隔 标 记 ， 需 
要 的 是 分 词 处 理 ; 对 于 英语 、 德 语 等 具有 形态 变化 的 语言 ， 通 常 需要 对 其 进行 词 形 还 原 ， 有 
些 形 态 丰富 语言 ， 辟 如 ， 维 召 尔 语 、 蒙 语 和 芬兰 语 等 ， 则 需要 形态 分 析 。 对 于 需要 词 形 还 原 
或 形态 分 析 的 语言 而 言 , 直接 使 用 单词 原型 通常 会 导致 数据 稀疏 问题 。 如 果 将 汉语 或 者 藏 文 
的 字 或 者 音节 作为 最 小 翻译 粒度 ， 由 于 短语 模型 或 者 层次 短语 模型 在 翻译 时 要 求 先 划分 短 
语 ， 这 就 会 导致 意 群 片段 的 错误 划分 ， 从 而 使 翻译 质量 会 受到 较 大 影响 。 第 二 步 将 第 一 步 生 
成 的 词 序 列 作为 输入 进行 翻译 解码 。 


对 于 藏 汉 翻 译 而 言 ， 分 词 的 结果 将 直接 影响 下 一 步 的 翻译 质量 。 首 先 ， 面 对 现实 语 料 ， 
分 词 器 不 可 能 实现 完全 正确 的 分 词 , 而 分 词 的 错误 在 进入 翻译 模块 时 会 导致 错误 的 进一步 传 
播 ， 因 此 得 到 的 译文 也 是 不 正确 的 。 其 次 ， 较 好 的 分 词 结果 并 不 保证 有 较 高 的 翻译 质量 ， 机 
器 翻译 是 一 个 复杂 动态 的 过 程 ,因此 分 词 的 粒度 应 该 由 翻译 模型 决定 。 我 们 采用 基于 词 图 的 
层次 短语 翻译 方法 ， 显 车 提高 了 藏 汉 翻 译 的 质量 。 


基于 词 图 的 统计 机 器 翻译 的 输入 是 由 分 词 产 生 的 词 图 ， 如 图 8 所 示 。 
SS 
(av 人 al' G) 3l 和 四 @ EY 寺 > EA @ Xe 
ee ~ 


这 个 藏 文句 子 的 意思 是 “ 毛 拉 没 去 青海 湖 ”，“ 毛 拉 ” 是 一 个 藏族 的 人 名 。 图 中 的 边 所 覆 
盖 的 字 可 以 组 合成 词 。 这 名 话 可 以 有 多 种 分 词 方案 ,如果 只 将 一 种 分 词 结果 输入 到 翻译 解码 
器 中 ， 翻 译 结果 很 可 能 出 错 。 图 8 中 的 句子 ， 不 同 的 分 词 对 ” 表 2， 翻 译 规则 
应 的 目标 端 规则 见 表 2 


藏 语 汉语 
如 果 生 成 词 图 的 边 过 少 ， 并 不 能 明显 减少 由 于 分 词 错误 | 名 妆 拉毛 
而 导致 的 翻译 错误 ， 词 图 边 过 多 ， 一 方面 增加 解码 器 翻译 的 |“ 伟 六 3 器 拉毛 措 
时 间 ， 另 一 方面 无 用 的 边 或 者 错误 的 边 会 干扰 正常 的 翻译 。 | 弱 湖 
词 图 的 生成 是 翻译 的 第 一 步 ， 构 建 词 图 的 质量 将 吾 接 影 响 翻 | 弱 溯 青海 湖 
译 的 质量 。 我 们 采用 两 种 前 枝 策略 :一 是 最 大 队列 长 度 ， 二 | 涩 3 蓝 色 
是 最 小 入 队 权重 。 当 生成 边 的 权重 小 于 最 小 入 队 权 重 ， 删 除 | 下 李 山羊 


此 边 。 如 果 将 新 生成 的 边 放 入 队列 后 ， 长 度 超过 最 大 队列 长 | 弄 " 没 
度 ， 删 除 最 小 权重 的 边 。 Ne 去 


基于 词 图 的 解码 将 多 种 分 词 候选 压缩 为 词 图 表示 , 分词 结果 对 应 词 图 中 的 一 条 路 径 , 不 
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同 路 径 可 共享 子路 径 ， 而 基于 词 图 的 翻译 的 对 象 是 词 图 中 的 边 ， 不 是 某 一 种 分 词 路 径 ， 因 此 
不 同 路 径 共享 的 子路 径 只 被 翻译 一 次 ， 这 样 可 以 减少 宛 余 操作 ， 加 快 解码 的 速度 。 

5 ， 藏 文 分 词 方法 和 藏 汉 翻译 实验 

5.1 藏 文 分 词 实验 


我 们 使 用 由 青海 师范 大 学 提供 的 12942 条 人 工分 词 的 藏 文句 子 ， 共 包含 110K 词语 ， 语 
料 的 领域 较为 广泛 。 从 中 随机 选择 500 句 作 为 测试 集 ， 剩 余 的 作为 训练 集 。 


为 了 人 研究 构 词 粒度 对 于 基于 感知 机 的 藏 文 分 词性 能 的 影响 ,我 们 以 基本 字 丁 、 基 本 字 丁 
一 音节 点 和 音节 为 切 分 单位 ， 设 计 3 组 实验 ， 实 验 结果 如 表 3 所 示 。 


我 们 发 现 , 随 着 构 词 粒度 的 增 ，” 表 3 藏 文 分 词 系统 的 性 能 


Waele 


大 ， 分 词 结果 的 性 能 也 在 提升 ， ET 
基于 音节 的 感知 机 藏 文 分 词 系统 Wis (%)  (%) (0%) 
的 已 值 比 基 于 基本 字 ] 的 系统 提 是 本 8732 88.51 87.91 


融 了 3.3 个 百分点 。 可 以 将 吃 文 分 基本 字 丁 一 音节 点 
词 看 作 序 列 标注 的 过 程 。 增 大 构 


88.42 89.80 89.11 


党 家 91.21 91.22 91.21 
词 粒度 ， 则 序列 变 短 ， 分 类 器 决 ER 
策 的 次 数 将 减少 ， 减 少 了 搜索 空 音节 + 词 图 95.70 96.81 96.25 
间 ， 准 确 率 提高 。 基于 规则 《基线 ) 95.05 94.69 94.8 


我 们 将 以 上 三 组 实验 看 作 是 基于 感知 机 模型 的 粗 切 分 ， 分 词 结果 中 往往 会 出 现 不 成 
词 的 切 分 。 我 们 在 基于 音节 的 分 词 系统 上 加 入 基于 词 图 的 重 排序 模块 ,通过 查询 词典 赋予 
每 条 边 不 同 的 权重 ， 搜 索 出 最 短路 径 。 最 终 分 词 的 下 值 达到 96.25%， 比 基于 规则 的 分 词 
系统 提高 了 1.38 个 百分点 ， 比 基于 音节 的 分 词 系统 外 提高 了 5.04 个 百分点 。 
5.2 藏 汉 翻 译 实验 

我 们 以 层次 短语 系统 作为 基线 系统 ,我 们 的 系统 在 此 基础 上 增加 基于 词 图 的 规则 匹配 和 
解码 功能 。 采 用 SRILMD9 工 具 训 练 得 到 5 元 语言 模型 ， 以 Kneser Ney 方法 进行 平滑 ， 其 
训练 的 语 料 是 GIGAWORD 语 料 中 的 部 分 汉语 单 语 语 料 ， 共 6.4 千 万 个 字 ， 使 用 中 科 院 计 
算 所 开发 的 ICTCLAS00 对 语 料 进 行 分 词 。 


实验 中 使 用 主流 的 翻译 评测 指标 BLEU034，BLEU 通过 统计 翻译 结果 和 参考 译文 之 间 的 
N-Gram 匹配 的 准确 率 的 几何 平均 衡量 翻译 质量 。 层 次 短语 模型 作为 我 们 实验 的 基线 系统 ， 
其 输入 的 开发 测试 集 采 用 的 是 藏 文 分 词 工 具 输 出 的 1-best 结果 , 词 图 解码 的 输入 是 由 藏 文 分 
词 工具 输出 的 词 图 。 


实验 使 用 两 组 语 料 ， 如 表 4 所 示 ， 实 _ 表 4. 两 组 藏 汉 实 验 的 数据 规模 
验 1 的 训练 语 料 主要 来 自 政府 公文 和 法 律 
文献 ， 开 发 测试 集 的 领域 也 是 政府 公文 相 训练 集 
关 的 材料 ， 语 料 相 对 比较 正式 。 实 验 2 的 | 实验 数据 1 | 101629 
训练 语 料 和 开发 测试 集 由 政府 公文 、 法 ”| 实验 数据 2 | 326698 
律 文献 和 日 常 口语 组 成 ， 语 料 〈 特 别 是 在 口语 领域 ) 规范 性 较 差 ， 但 环境 更 贴近 现实 情形 。 


”大 词汇 语言 处 理 常 用 的 一 种 语言 模型 ， 该 模型 基于 这 样 一 个 假设 : 第 n 个 词 的 出 现 只 与 前 面 N-1 个 词 相 
关 ， 常 用 的 是 二 元 的 Bi-Gram 和 三 元 的 Tri-Gram 
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互联 网 上 的 大 部 分 藏 文 语 料 的 随意 性 比较 强 ,可 能 存在 表达 不 规范 ,词语 变形 , 词语 缩 略 其 


至 错误 的 表达 方式 , 这 就 要 求 翻译 模型 


第 11 卷 第 4 期 


信息 技 


术 快 报 


Information Technology Letter 


一 定 程度 上 有 助 于 此 类 问题 的 解决 。 


实验 结 


果 如 表 5 所 示 ， 


表 5.， 实验 结果 (BLEU 


Vol.11 No.4 
Sep. 2013 


实验 数据 1 


有 较 高 的 容错 性 和 重 棒 性 , 基于 词 图 


的 翻译 方法 在 


实验 数据 2 


开发 集 


测试 集 


开发 集 


测试 集 


层次 短语 翻译 模型 


0.4201 


0.3331 


0.4901 


0.3361 


词 图 翻译 模型 
对 于 实验 数据 1， 词 攻 


ba 


0.4314 


翻译 模型 比 层次 短语 模型 帮 


0.3422 


0.5080 


0.3500 


E 开 发 集 上 提 


高 了 1.13 个 百分点 ， 在 


测试 集 上 提高 了 0.91 百 分 个 点 。 传 统 的 翻译 模型 以 词 的 序列 作为 输入 ， 但 是 错误 的 分 词 结 


果 或 者 不 合适 的 分 词 粒度 都 会 影 


吧 翻 译 的 结果 


。 对 比 两 个 系统 的 翻译 结果 , 词 


图 翻译 的 结果 


明显 减少 了 未 登录 词 出 现 的 次 数 。 实 验 数据 2 的 语 料 分 布 较为 广泛 ， 句 子 书写 较为 随意 ， 比 


数据 1 的 语 料 更 接近 日 
词 图 翻译 模型 比 层次 短语 模型 在 开发 集 上 高 


翻译 模型 的 鲁 棒 性 更 强 , 更 适合 处 型 


数 ， 还 提高 翻译 的 质量 。 
总 结 与 展望 


本 文 提出 一 种 基于 判别 式 模型 的 藏 文 分 词 方 法 , 并 探索 构 词 粒 度 的 大 小 对 分 词性 能 的 
影响 ， 确 定 藏 文 分 词 的 基本 切 分 粒度 。 然 而 ， 
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采用 基于 词 


常生 活用 语 ， 因 


图 的 重 排序 算法 引入 非 局 部 特征 ， 并 运用 


此 对 分 词 工具 和 机 器 翻译 模型 的 容错 性 的 要 求 更 高 。 
H 1.79 个 点 ， 在 测试 集 上 高 1.39 个 点 。 表 明 词 


不 规范 文本 。 词 图 翻译 不 仅 降 


氏 了 未 登录 词 的 出 现 次 


! 于 非 局 部 特征 不 能 直接 用 于 感知 机 ， 我 们 
最 短路 径 算 法 产生 最 优 的 分 词 结果 。 


分 词 过 程 或 者 形态 分 析 是 对 汉语 、 藏 文 、 泰 文 、 维 吾 尔 文 或 者 朝鲜 文 进行 机 器 翻译 第 一 步 。 


然而 , 输入 翻译 模型 的 分 记 
的 基于 词 加 
翻译 模型 在 翻译 过 程 


我 们 提 昌 


序列 , 错误 的 分 词 或 者 不 合适 的 分 词 粒 度 , 都 会 


选择 最 合适 的 分 词 粒 度 ， 提 高 了 翻译 质量 。 


导致 翻译 的 错误 。 


的 翻译 模型 , 将 多 种 分 词 结果 压缩 为 词 图 表示 ， } 


作为 机 器 翻译 的 输入 ， 


在 基于 统计 的 汉语 分 词 领域 , 最 大 烂 和 条 件 随 机 场 也 获得 了 较 好 的 分 词 效 果 ， 未 来 我 


= 


藏 汉 统 计 机 器 翻译 。 


， 李 保利 ， 俞 士 汶 . 藏 文 E 


知 杰 . 班 智 达 藏 文 


序 中 的 作 
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